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Методы вычисления мер семантической 
близости слов естественного языка 


В данной статье приводятся экспериментальные данные вычисления мер семантического сходства и 
связанности. Все меры, представленные в статье, используют в качестве базы знаний только \\огаМет. 
Также авторами были предложены и проверены в эксперименте модификации существующих мер. 


Введение 


Устранение семантической неоднозначности — это процесс выбора определен- 
ного смысла слов исходя из их контекста. В этой задаче важным моментом является 
определение связанности разных смыслов, поскольку, хотя смысл слова выбирается 
из некоторого определенного множества, избранное значение слова должно наибо- 
лее соответствовать (в семантическом смысле) соседям по тексту, быть связанным с 
ними, быть семантически похожим. Для этого вводятся различные меры сходства и 
связанности, которые используются также в таких задачах, как: определение структу- 
ры текста, аннотирование и реферирование текстов, информационный поиск, авто- 
матическое индексирование и автоматическая коррекция ошибок в текстах. В данной 
статье эти понятия различаются на основе [1] следующим образом: сходство — более 
узкое понятие, похожие сущности обычно связаны одинаковостью по определенной 
характеристике, а непохожие сущности могут быть семантически связаны другим 
способом (например: машина-колесо). 

Для вычисления мер семантического сходства и связанности был разработан 
программный пакет, который основан на использовании сетевых баз знаний. В данной 
реализации было использовано лексико-семантическую базу знаний \/огаМе". 

Далее в этой статье будет дано краткое описание структуры \УотаМеф, класси- 
ческое описание и описание модификаций реализованных мер, таких как: [2-5], и 
простая мера, пропорционально обратная кратчайшему пути. Затем приведены опи- 
сание эксперимента и результаты. Эксперимент был поставлен на двух множествах 
данных — пары английских слов, которым в соответствие вручную были простав- 
лены значения их семантического сходства и связанности. Первая — это множество 
из 353 пар английских слов, а вторая — 30 пар. В конце приведены выводы и планы 
дальнейшей работы в данном направлении. 

Целью данной работы является анализ существующих мер семантической бли- 
зости и разработка их модификаций. 


1 \ота\ет 


Дж. Миллером и его коллегами из Лаборатории когнитологии Принстонского 
Университета (США) была разработана модель ментального лексикона человека. 
Ресурс, который стал первой реализованной глобальной онтологической сетью, по- 
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лучил название \!огаМее [6] и со временем стал одним из наиболее авторитетных и 
распространенных стандартов, используемых для построения лексико-семантиче- 
ских баз. 

Популярность и широкое распространение У/огАМе{ обусловлены прежде всего 
его существенными содержательными и структурными характеристиками. Прин- 
стонский У/огАМе( и все последующие варианты для других языков направлены на 
отображение состава и структуры лексической системы языка в целом, а не отдель- 
ных тематических областей. Нынешняя версия \!огаМе{ охватывает общеупотреби- 
тельную лексику современного английского языка — более 120 000 слов. 

Базовой структурной единицей Принстонского \У/огаМе{ является синоними- 
ческий ряд (синсет), объединяющей слова с подобным значением. Каждый синсет 
представляет в словаре некоторое лексикализированное понятие данного языка. Для 
удобства использования словаря человеком каждый синсет дополнен дефиницией 
(2105$) и примерами употребления слов в контексте. Синсеты в \МогАМей связаны 
между собой такими семантическими отношениями, как гипонимия (родовидовое), 
меронимия (часть — целое), лексический вывод (каузация, пресуппозиция) и др.; сре- 
ди них особую роль играет гипонимия: она позволяет организовывать синсеты в 
иерархические структуры (деревья таксономии). Лексика каждой части речи пред- 
ставлена в виде набора деревьев (леса). Для разных частей речи родовидовые отношения 
могут иметь дополнительные характеристики и различаться областью распространения. 

Путем между двумя синсетами на \огАМе! назовем последовательность синсетов, 
в которой каждая последовательная пара синсетов связана определенным отношением. 


2 Меры сходства и связанности 


Рассмотренные ниже меры можно условно разделить на основанные на путях 
(рай Базе) и основанные на описаниях (51035 Базе). Первые используют кратчай- 
шие пути между концептами в базе знаний, а основанные на описаниях используют 
словарные описания концептов. 


2.1 Основанные на путях 


Основанные на путях меры были разработаны в основном только для [5-А 
отношений — гипо-и гипернимии (конкретизация и абстрагирование). То есть эти 
меры определены на таксономии. Как отмечается в [7] и у других авторов, боль- 
шинство таксономий имеют следующий недостаток: один таксономический шаг 
(таксономическая связь) может быть более мелким, а другой наоборот — более широ- 
ким. Например, в \огАМе{ между понятиями ЕОВК и ЗАГАР ЕОКК и между ЕАОМА и 
СНОКЛАТЕ одинаковое таксономическое расстояние — одна связь типа [5-А, но 
интуитивно понятия из первой пары гораздо ближе друг к другу, чем со второй. 

РАТН 

Простейшей основанной на путях мерой является мера, которую будем обозна- 
чать РАТН. Согласно этому подходу, мерой семантической схожести между двумя 
концептами является обратное значение длины кратчайшего пути в таксономии 
между этими концептами. 

т (6) = 
; : 
ео эйотезШепай(с,,с,) 

ЕСН 

Следующая мера, описание которой приводится здесь, была предложена в [2]. 
Эту основанную на путях меру семантического сходства, будем обозначать как ЁСН. 
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При этом подходе мера сходства двух концептов определяется как отношение 
кратчайшего пути в 1$-А иерархии к диаметру таксономии. Для \!огАМе( 2.1 диаметр 
таксономии существительных равняется 17. Следующая формула описывает меру: 


бромеШепай(с], со) 


5 с, С = -1о 
БСН (©1›62) 8 о 
бротеШепяйЙ (ст, с2) — длина кратчайшего пути (с наименьшим количеством 
узлов) между концептами с! и с›, а О — это диаметр таксономии. 

Авторами была разработана и протестирована модификация этого подхода (да- 
лее — ГСН+). В дополнение к [5-А отношениям в путях допускаются отношения 
типа «часть-целое» (меронимия и голонимия). Модифицированная мера уже ближе к 
мере связанности и не является чистой мерой сходства. 

МОР 

В своей работе по разработке системы машинного перевода английских глаго- 
лов на мандаринский китайский [3] предложили следующую меру семантического 
сходства между концептами стисо: 
2х аерй(ЁЕС5(с,,с.)) 

дер (с, ) +4ерй(с,) | 
где 4ерй (с) - это глубина концепта в [1$-А иерархии, а [0$ (сс 2) - ближайший 
общий родовой узел. Например, в \!ог4Ме!-таксономии ближайшим общим родовым 
узлом для узлов «МШКЕГ» и «ПМЕ» будет «СОШ\» (рис.1). То есть «МКЕГ» и 


«ПТМЕ» объединяет то, что и то, и другое является монетами — «СОПМ.А» у «СОМ» 
и у «СКЕМТ САКБ» общим является то, что это средства обмена. 


Я 


2.2 Основанные на описаниях 


Подход к определению семантической связанности концептов на основе их сло- 
варных описаний был предложен в [4]. Суть данного подхода довольно простая - се- 
мантическая связь двух концептов прямопропорциональна количеству слов (или то- 
кенов), входящих одновременно в описание первого и второго концепта. Будем обоз- 
начать ее ГЕЗК. Эта мера является мерой семантической связанности и может быть 
легко использована для различных частей речи и их комбинаций, в отличие от преды- 
дущих мер, воспринимающих только существительные из-за использования в их опре- 
делении [3-А иерархии, которая в \УогаМе{ разработана лучше для существительных. 


1 
МЕОГОМ ОЕ ЕХСНАМСЕ 
1 
у 
МОМЕУ 
1 
САЗН СБВЕПТ 
1 
СОТ 
МСКЕГ ЫМЕ СВЕОП САКО 


Рисунок 1 — Фрагмент У/огАМе{-таксономии. Сплошные линии представляют 
[53-А-отношения, а пунктирными показано, что некоторые узлы опущены, 
чтобы сохранить место 
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Рабуагавап, Вапецее и Редегзеп сделали модификацию этого подхода [5]. Будем 
обозначать его ГЕЗК_А (Ге5К Адареа). Так как, например, в \/огАМе{ описания кон- 
цептов не очень большие, то их порой не хватает для определения связанности: у двух 
похожих понятий может не быть ни одного пересечения их описаний. Поэтому эти 
авторы предложили принимать к рассмотрению не только описание самого концеп- 
та, но и непосредственно соединенных с ним концептов в базе знаний. 

Так как величина сечения глоссариев считается в словах, то такая мера не явля- 
ется нормализованной и не всегда очевидно показательной (например, длина пересе- 
чения в 10 словах может быть лучше, чем длина пересечения в 20, если в первом 
случае длина обоих глоссариев была, например, по 12 слов, а во втором - по 40). 
Поэтому применим некоторые соотношения для нормализации. Введем обозначения: 


У — | 81055(с,) $1055(с, 


с.21055,если вычисляем ГЕУК; 
81055(с) = (/] 5.81055, если вычисляем ГЕ5К _ А, 


5еАеие4 (с) 


где с.21055 — это описание концепта с, Кесиеа (с) — это множество непосредственно 
связанных концептов с концептом с. Отметим, что согласно этим обозначениям 


. лойпре __ 5 “ < 
Тк = [ является описанной выше ненормализованной мерой. 
Итак, можно привести следующие соотношения: 
1 1 
+ 
и _ | $1055(с, |81055(с, , 
Тя (с > с.) > ы 2 


. АР о 
51Ту к — это среднее арифметическое соотношений размера пересечения двух опи- 
саний к размерам каждого из них. Эта функция принимает значения от 0 до 1. 


тих (СС с 
Бек 1» 2 |[21055(с,)|+|21055(с,) 


Я ле : 
5йп“" — это отношение строится на базе ЗипЙагиу ТЬеогет [8], фактически, это 


соотношение количества общей информации о двух объектах к количеству инфор- 
мации о каждом. Принимает значения от 0 до 1. 


3 Эксперимент и результаты 


Эксперимент был поставлен на двух множествах данных. 

Первая — это 353 пары английских слов, не только существительных. Каждой 
паре, на основе опроса субъективной оценки сходства, были проставлены определен- 
ные значения от 0 до 10, где 10 ставился для пары абсолютно одинаковых понятий, а 
0 — вообще не похожих и не связанных. Загрузить эти данные можно по адресу 
БИр://\у\у му. с$ дестоп.ас.1/ — забг/гезоитгсе/4аа/\ота$1т353/Ауогд$ 1353.6. 

Второе множество — это множество из 30 существительных, все из них есть в 
М!огаМе". Эти данные были взяты из статьи [9]. Плюс этого множества данных в том, 
что на ней было много раз протестировано другими исследователями различные ме- 
ры, поэтому можно сравнить описанные в этой статье меры и их модификации с 
другими результатами. 
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Так как дано пары слов, а методы вычисляют меру концептов, то в этой работе 
мера между словами вычисляется по формуле: 


эй" шах (ип (с ,с,)), 


С Е\теапт85 
с Ем -театт8у 


(и, м) = 


где Х-— название меры, у’.театтз5 — это множество смыслов-концептов этого слова. 

Для основанных на путях мер проводилось два эксперимента: с максимальной 
длиной пути в 8 ив 10 узлов. 

Для каждой основанной на описаниях меры исчислялись разные соотношения 
(Аг, ли, тре). Кроме того, как было указано выше в разделе описания мер, было 
реализовано 2 варианта меры ГЕЗК_А - с использованием [$-А отношений (обозна- 
чим далее ГЕЗК А 15ЗА) и с использованием [$-А отношений с меронимическими 
отношениями (обозначим далее ГЕЗК_А_МЕК). 

Также была реализована случайная мера (обозначим КАМО), которая ставила 
случайное значение семантического сходства каждой паре. По результатам экспери- 
мента, как видно из таблиц, все меры лучше случайной. 

В таблицах приведены значения корреляции различных мер к ответам людей. 


Таблица 1 — Результаты эксперимента основанных на путях мер на 353 парах 


Максимальная длина пути = 8 Максимальная длина пути = 10 
ЕСН 0.2654 ЕСН 0.2654 
ЕСН + 0.2738 ЕСН + 0.2905 
МУР 0.2639 МУР 0.24 

РАТН 0.3621 РАТН 0.3629 


Таблица 2 — Результаты эксперимента основанных на описаниях мер на 353 парах 


ГЕК Аг | 0.3558 _| ГЕЗК_А_ГЗА Аг 0.4168 | ГЕЗК_А_МЕК Аг | 0.4332 
ГЕЗК Гли | 0.3461 | ГЕЗК_А _ТЗА Ши | 0.4103 | ГЕЗК_А_МЕК Га | 0.4199 
ГЕК 0.3233 |ГЕЗК А ЗА 0.273 | ГЕЗК_ А МЕК 0.2662 
Зпаре эпире Заре 


Таблица 3 — Результаты эксперимента основанных на путях мер на 30 парах 


Максимальная длина пути = 8 Максимальная длина пути = 10 
ЕСН 0;7927 ЕСН 0.784 
ЕСН + 0.8125 ЕСН + 0.8125 
МУР 0.6629 МУР 0.6366 
РАТН 0.7874 РАТН 0.7818 


Таблица 4 — Результаты эксперимента основанных на описаниях мер на 30 парах 


ГЕЗК Аг 0.5718 ГЕЗК А_ТЗА | 0.7596 ГЕЗК А_МЕК | 0.766 
Аг Аг 
ГЕЗК Глп 0.56 ГЕК А [ЗА | 0.7054 ГЕЗК_А_МЕК | 0.7146 
Лю Лю 
ГЕЗК 0.4714 ГЕЗК А _ТЗА | 0.4794 ГЕЗК А_МЕК 0.4019 
Зпаре Заре Заре 
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Таблица 5 — Результаты для случайной меры 


На 353 парах На 30 парах 
ВАМО 0.030587 ВАМО 0.227035 


В [7] отмечается, что для множества [9] корреляция повторного теста людьми 
составляет 7 = 0.8848, то есть это можно считать максимально возможной корреляцией. 


Выводы 


Как мы видим, лучшую корреляцию показала мера ___. Реализованные меры 
показывают неплохие результаты, достаточные для использования их в других 
приложениях. Дальнейшие исследования будут сосредоточены на использовании в 
качестве базы знаний свободной энциклопедии \У/Паред1а, а также на анализе пове- 
дения вышеизложенных мер в других приложениях компьютерной лингвистики. 
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А.В. Ашамов, К.С. Лиман, О.О. Марченко 

Методи обчислення м семантично! близькост! слв природно! мови 

У дан статт! наводяться експериментальн! дан! обчислення мф семантично! под!бност! та зв’язаност!. 
Вс! мри, що представлен! в статт!, використовують як джерела знань тльки \!ог4Ме(. Також авторами 
були запропонован! й перев1рен1 в експеримент! модифлкаци 1снуючих м1. 


А.Т. Апятот, С.5. Гутап, А.А. Магсйепко 

Тве Сотршавйопа! Мео4$ Гог Фе Зетапйс Ргохиийу Меазиге$ оЁ Мага! Гапоцасе УУог45 

ТЫ$ агасе герогз абоиё Фе ехрегитепиа] даёа оп теазигез оЁ зетапйс зииПагИу апа ге!а4едпезз соппрщаяоп. 
АП 915си55е теазигез изе У\УотаМе{ аз а Кпо\1е4ее зопгсе. А150, по ЙсаНоп$ оЁ ех1зИпе теазигез \’еге 
ргорозе4 Бу ше аиог$ ап4 \еге {е${е4 ш Фе ехрегитеп:. 
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